iov_iter.c source code [Linux/lib/iov_iter.c]

1	// SPDX-License-Identifier: GPL-2.0-only
2	#include <linux/export.h>
3	#include <linux/bvec.h>
4	#include <linux/fault-inject-usercopy.h>
5	#include <linux/uio.h>
6	#include <linux/pagemap.h>
7	#include <linux/highmem.h>
8	#include <linux/slab.h>
9	#include <linux/vmalloc.h>
10	#include <linux/splice.h>
11	#include <linux/compat.h>
12	#include <linux/scatterlist.h>
13	#include <linux/instrumented.h>
14	#include <linux/iov_iter.h>
15
16	static __always_inline
17	size_t copy_to_user_iter(void __user *iter_to, size_t progress,
18	size_t len, void from, void* *priv2)
19	{
20	if (should_fail_usercopy())
21	return len;
22	if (access_ok(iter_to, len)) {
23	from += progress;
24	instrument_copy_to_user(to: iter_to, from, n: len);
25	len = raw_copy_to_user(dst: iter_to, src: from, size: len);
26	}
27	return len;
28	}
29
30	static __always_inline
31	size_t copy_to_user_iter_nofault(void __user *iter_to, size_t progress,
32	size_t len, void from, void* *priv2)
33	{
34	ssize_t res;
35
36	if (should_fail_usercopy())
37	return len;
38
39	from += progress;
40	res = copy_to_user_nofault(dst: iter_to, src: from, size: len);
41	return res < `0` ? len : res;
42	}
43
44	static __always_inline
45	size_t copy_from_user_iter(void __user *iter_from, size_t progress,
46	size_t len, void to, void* *priv2)
47	{
48	size_t res = len;
49
50	if (should_fail_usercopy())
51	return len;
52	if (access_ok(iter_from, len)) {
53	to += progress;
54	instrument_copy_from_user_before(to, from: iter_from, n: len);
55	res = raw_copy_from_user(dst: to, src: iter_from, size: len);
56	instrument_copy_from_user_after(to, from: iter_from, n: len, left: res);
57	}
58	return res;
59	}
60
61	static __always_inline
62	size_t memcpy_to_iter(void *iter_to, size_t progress,
63	size_t len, void from, void* *priv2)
64	{
65	memcpy(to: iter_to, from: from + progress, len);
66	return `0`;
67	}
68
69	static __always_inline
70	size_t memcpy_from_iter(void *iter_from, size_t progress,
71	size_t len, void to, void* *priv2)
72	{
73	memcpy(to: to + progress, from: iter_from, len);
74	return `0`;
75	}
76
77	/*
78	* fault_in_iov_iter_readable - fault in iov iterator for reading
79	* @i: iterator
80	* @size: maximum length
81	*
82	* Fault in one or more iovecs of the given iov_iter, to a maximum length of
83	* @size. For each iovec, fault in each page that constitutes the iovec.
84	*
85	* Returns the number of bytes not faulted in (like copy_to_user() and
86	* copy_from_user()).
87	*
88	* Always returns 0 for non-userspace iterators.
89	*/
90	size_t fault_in_iov_iter_readable(const struct iov_iter *i, size_t size)
91	{
92	if (iter_is_ubuf(i)) {
93	size_t n = min(size, iov_iter_count(i));
94	n -= fault_in_readable(uaddr: i->ubuf + i->iov_offset, size: n);
95	return size - n;
96	} else if (iter_is_iovec(i)) {
97	size_t count = min(size, iov_iter_count(i));
98	const struct iovec *p;
99	size_t skip;
100
101	size -= count;
102	for (p = iter_iov(iter: i), skip = i->iov_offset; count; p++, skip = `0`) {
103	size_t len = min(count, p->iov_len - skip);
104	size_t ret;
105
106	if (unlikely(!len))
107	continue;
108	ret = fault_in_readable(uaddr: p->iov_base + skip, size: len);
109	count -= len - ret;
110	if (ret)
111	break;
112	}
113	return count + size;
114	}
115	return `0`;
116	}
117	EXPORT_SYMBOL(fault_in_iov_iter_readable);
118
119	/*
120	* fault_in_iov_iter_writeable - fault in iov iterator for writing
121	* @i: iterator
122	* @size: maximum length
123	*
124	* Faults in the iterator using get_user_pages(), i.e., without triggering
125	* hardware page faults. This is primarily useful when we already know that
126	* some or all of the pages in @i aren't in memory.
127	*
128	* Returns the number of bytes not faulted in, like copy_to_user() and
129	* copy_from_user().
130	*
131	* Always returns 0 for non-user-space iterators.
132	*/
133	size_t fault_in_iov_iter_writeable(const struct iov_iter *i, size_t size)
134	{
135	if (iter_is_ubuf(i)) {
136	size_t n = min(size, iov_iter_count(i));
137	n -= fault_in_safe_writeable(uaddr: i->ubuf + i->iov_offset, size: n);
138	return size - n;
139	} else if (iter_is_iovec(i)) {
140	size_t count = min(size, iov_iter_count(i));
141	const struct iovec *p;
142	size_t skip;
143
144	size -= count;
145	for (p = iter_iov(iter: i), skip = i->iov_offset; count; p++, skip = `0`) {
146	size_t len = min(count, p->iov_len - skip);
147	size_t ret;
148
149	if (unlikely(!len))
150	continue;
151	ret = fault_in_safe_writeable(uaddr: p->iov_base + skip, size: len);
152	count -= len - ret;
153	if (ret)
154	break;
155	}
156	return count + size;
157	}
158	return `0`;
159	}
160	EXPORT_SYMBOL(fault_in_iov_iter_writeable);
161
162	void iov_iter_init(struct iov_iter i, unsigned* int direction,
163	const struct iovec iov, unsigned* long nr_segs,
164	size_t count)
165	{
166	WARN_ON(direction & ~(READ \| WRITE));
167	i = (struct* iov_iter) {
168	.iter_type = ITER_IOVEC,
169	.nofault = false,
170	.data_source = direction,
171	.__iov = iov,
172	.nr_segs = nr_segs,
173	.iov_offset = `0`,
174	.count = count
175	};
176	}
177	EXPORT_SYMBOL(iov_iter_init);
178
179	size_t _copy_to_iter(const void addr, size_t bytes, struct* iov_iter *i)
180	{
181	if (WARN_ON_ONCE(i->data_source))
182	return `0`;
183	if (user_backed_iter(i))
184	might_fault();
185	return iterate_and_advance(iter: i, len: bytes, priv: (void *)addr,
186	ustep: copy_to_user_iter, step: memcpy_to_iter);
187	}
188	EXPORT_SYMBOL(_copy_to_iter);
189
190	#ifdef CONFIG_ARCH_HAS_COPY_MC
191	static __always_inline
192	size_t copy_to_user_iter_mc(void __user *iter_to, size_t progress,
193	size_t len, void from, void* *priv2)
194	{
195	if (access_ok(iter_to, len)) {
196	from += progress;
197	instrument_copy_to_user(to: iter_to, from, n: len);
198	len = copy_mc_to_user(to: iter_to, from, len);
199	}
200	return len;
201	}
202
203	static __always_inline
204	size_t memcpy_to_iter_mc(void *iter_to, size_t progress,
205	size_t len, void from, void* *priv2)
206	{
207	return copy_mc_to_kernel(to: iter_to, from: from + progress, len);
208	}
209
210	/**
211	* _copy_mc_to_iter - copy to iter with source memory error exception handling
212	* @addr: source kernel address
213	* @bytes: total transfer length
214	* @i: destination iterator
215	*
216	* The pmem driver deploys this for the dax operation
217	* (dax_copy_to_iter()) for dax reads (bypass page-cache and the
218	* block-layer). Upon #MC read(2) aborts and returns EIO or the bytes
219	* successfully copied.
220	*
221	* The main differences between this and typical _copy_to_iter().
222	*
223	* * Typical tail/residue handling after a fault retries the copy
224	* byte-by-byte until the fault happens again. Re-triggering machine
225	* checks is potentially fatal so the implementation uses source
226	* alignment and poison alignment assumptions to avoid re-triggering
227	* hardware exceptions.
228	*
229	* * ITER_KVEC and ITER_BVEC can return short copies. Compare to
230	* copy_to_iter() where only ITER_IOVEC attempts might return a short copy.
231	*
232	* Return: number of bytes copied (may be %0)
233	*/
234	size_t _copy_mc_to_iter(const void addr, size_t bytes, struct* iov_iter *i)
235	{
236	if (WARN_ON_ONCE(i->data_source))
237	return `0`;
238	if (user_backed_iter(i))
239	might_fault();
240	return iterate_and_advance(iter: i, len: bytes, priv: (void *)addr,
241	ustep: copy_to_user_iter_mc, step: memcpy_to_iter_mc);
242	}
243	EXPORT_SYMBOL_GPL(_copy_mc_to_iter);
244	#endif /* CONFIG_ARCH_HAS_COPY_MC */
245
246	static __always_inline
247	size_t __copy_from_iter(void addr, size_t bytes, struct* iov_iter *i)
248	{
249	return iterate_and_advance(iter: i, len: bytes, priv: addr,
250	ustep: copy_from_user_iter, step: memcpy_from_iter);
251	}
252
253	size_t _copy_from_iter(void addr, size_t bytes, struct* iov_iter *i)
254	{
255	if (WARN_ON_ONCE(!i->data_source))
256	return `0`;
257
258	if (user_backed_iter(i))
259	might_fault();
260	return __copy_from_iter(addr, bytes, i);
261	}
262	EXPORT_SYMBOL(_copy_from_iter);
263
264	static __always_inline
265	size_t copy_from_user_iter_nocache(void __user *iter_from, size_t progress,
266	size_t len, void to, void* *priv2)
267	{
268	return __copy_from_user_inatomic_nocache(dst: to + progress, src: iter_from, size: len);
269	}
270
271	size_t _copy_from_iter_nocache(void addr, size_t bytes, struct* iov_iter *i)
272	{
273	if (WARN_ON_ONCE(!i->data_source))
274	return `0`;
275
276	return iterate_and_advance(iter: i, len: bytes, priv: addr,
277	ustep: copy_from_user_iter_nocache,
278	step: memcpy_from_iter);
279	}
280	EXPORT_SYMBOL(_copy_from_iter_nocache);
281
282	#ifdef CONFIG_ARCH_HAS_UACCESS_FLUSHCACHE
283	static __always_inline
284	size_t copy_from_user_iter_flushcache(void __user *iter_from, size_t progress,
285	size_t len, void to, void* *priv2)
286	{
287	return __copy_from_user_flushcache(dst: to + progress, src: iter_from, size: len);
288	}
289
290	static __always_inline
291	size_t memcpy_from_iter_flushcache(void *iter_from, size_t progress,
292	size_t len, void to, void* *priv2)
293	{
294	memcpy_flushcache(dst: to + progress, src: iter_from, cnt: len);
295	return `0`;
296	}
297
298	/**
299	* _copy_from_iter_flushcache - write destination through cpu cache
300	* @addr: destination kernel address
301	* @bytes: total transfer length
302	* @i: source iterator
303	*
304	* The pmem driver arranges for filesystem-dax to use this facility via
305	* dax_copy_from_iter() for ensuring that writes to persistent memory
306	* are flushed through the CPU cache. It is differentiated from
307	* _copy_from_iter_nocache() in that guarantees all data is flushed for
308	* all iterator types. The _copy_from_iter_nocache() only attempts to
309	* bypass the cache for the ITER_IOVEC case, and on some archs may use
310	* instructions that strand dirty-data in the cache.
311	*
312	* Return: number of bytes copied (may be %0)
313	*/
314	size_t _copy_from_iter_flushcache(void addr, size_t bytes, struct* iov_iter *i)
315	{
316	if (WARN_ON_ONCE(!i->data_source))
317	return `0`;
318
319	return iterate_and_advance(iter: i, len: bytes, priv: addr,
320	ustep: copy_from_user_iter_flushcache,
321	step: memcpy_from_iter_flushcache);
322	}
323	EXPORT_SYMBOL_GPL(_copy_from_iter_flushcache);
324	#endif
325
326	static inline bool page_copy_sane(struct page *page, size_t offset, size_t n)
327	{
328	struct page *head;
329	size_t v = n + offset;
330
331	/*
332	* The general case needs to access the page order in order
333	* to compute the page size.
334	* However, we mostly deal with order-0 pages and thus can
335	* avoid a possible cache line miss for requests that fit all
336	* page orders.
337	*/
338	if (n <= v && v <= PAGE_SIZE)
339	return true;
340
341	head = compound_head(page);
342	v += (page - head) << PAGE_SHIFT;
343
344	if (WARN_ON(n > v \|\| v > page_size(head)))
345	return false;
346	return true;
347	}
348
349	size_t copy_page_to_iter(struct page *page, size_t offset, size_t bytes,
350	struct iov_iter *i)
351	{
352	size_t res = `0`;
353	if (!page_copy_sane(page, offset, n: bytes))
354	return `0`;
355	if (WARN_ON_ONCE(i->data_source))
356	return `0`;
357	page += offset / PAGE_SIZE; // first subpage
358	offset %= PAGE_SIZE;
359	while (`1`) {
360	void *kaddr = kmap_local_page(page);
361	size_t n = min(bytes, (size_t)PAGE_SIZE - offset);
362	n = _copy_to_iter(kaddr + offset, n, i);
363	kunmap_local(kaddr);
364	res += n;
365	bytes -= n;
366	if (!bytes \|\| !n)
367	break;
368	offset += n;
369	if (offset == PAGE_SIZE) {
370	page++;
371	offset = `0`;
372	}
373	}
374	return res;
375	}
376	EXPORT_SYMBOL(copy_page_to_iter);
377
378	size_t copy_page_to_iter_nofault(struct page page, unsigned* offset, size_t bytes,
379	struct iov_iter *i)
380	{
381	size_t res = `0`;
382
383	if (!page_copy_sane(page, offset, n: bytes))
384	return `0`;
385	if (WARN_ON_ONCE(i->data_source))
386	return `0`;
387	page += offset / PAGE_SIZE; // first subpage
388	offset %= PAGE_SIZE;
389	while (`1`) {
390	void *kaddr = kmap_local_page(page);
391	size_t n = min(bytes, (size_t)PAGE_SIZE - offset);
392
393	n = iterate_and_advance(iter: i, len: n, priv: kaddr + offset,
394	ustep: copy_to_user_iter_nofault,
395	step: memcpy_to_iter);
396	kunmap_local(kaddr);
397	res += n;
398	bytes -= n;
399	if (!bytes \|\| !n)
400	break;
401	offset += n;
402	if (offset == PAGE_SIZE) {
403	page++;
404	offset = `0`;
405	}
406	}
407	return res;
408	}
409	EXPORT_SYMBOL(copy_page_to_iter_nofault);
410
411	size_t copy_page_from_iter(struct page *page, size_t offset, size_t bytes,
412	struct iov_iter *i)
413	{
414	size_t res = `0`;
415	if (!page_copy_sane(page, offset, n: bytes))
416	return `0`;
417	page += offset / PAGE_SIZE; // first subpage
418	offset %= PAGE_SIZE;
419	while (`1`) {
420	void *kaddr = kmap_local_page(page);
421	size_t n = min(bytes, (size_t)PAGE_SIZE - offset);
422	n = _copy_from_iter(kaddr + offset, n, i);
423	kunmap_local(kaddr);
424	res += n;
425	bytes -= n;
426	if (!bytes \|\| !n)
427	break;
428	offset += n;
429	if (offset == PAGE_SIZE) {
430	page++;
431	offset = `0`;
432	}
433	}
434	return res;
435	}
436	EXPORT_SYMBOL(copy_page_from_iter);
437
438	static __always_inline
439	size_t zero_to_user_iter(void __user *iter_to, size_t progress,
440	size_t len, void priv, void* *priv2)
441	{
442	return clear_user(to: iter_to, n: len);
443	}
444
445	static __always_inline
446	size_t zero_to_iter(void *iter_to, size_t progress,
447	size_t len, void priv, void* *priv2)
448	{
449	memset(s: iter_to, c: `0`, n: len);
450	return `0`;
451	}
452
453	size_t iov_iter_zero(size_t bytes, struct iov_iter *i)
454	{
455	return iterate_and_advance(iter: i, len: bytes, NULL,
456	ustep: zero_to_user_iter, step: zero_to_iter);
457	}
458	EXPORT_SYMBOL(iov_iter_zero);
459
460	size_t copy_folio_from_iter_atomic(struct folio *folio, size_t offset,
461	size_t bytes, struct iov_iter *i)
462	{
463	size_t n, copied = `0`;
464
465	if (!page_copy_sane(page: &folio->page, offset, n: bytes))
466	return `0`;
467	if (WARN_ON_ONCE(!i->data_source))
468	return `0`;
469
470	do {
471	char *to = kmap_local_folio(folio, offset);
472
473	n = bytes - copied;
474	if (folio_test_partial_kmap(folio) &&
475	n > PAGE_SIZE - offset_in_page(offset))
476	n = PAGE_SIZE - offset_in_page(offset);
477
478	pagefault_disable();
479	n = __copy_from_iter(addr: to, bytes: n, i);
480	pagefault_enable();
481	kunmap_local(to);
482	copied += n;
483	offset += n;
484	} while (copied != bytes && n > `0`);
485
486	return copied;
487	}
488	EXPORT_SYMBOL(copy_folio_from_iter_atomic);
489
490	static void iov_iter_bvec_advance(struct iov_iter *i, size_t size)
491	{
492	const struct bio_vec bvec, end;
493
494	if (!i->count)
495	return;
496	i->count -= size;
497
498	size += i->iov_offset;
499
500	for (bvec = i->bvec, end = bvec + i->nr_segs; bvec < end; bvec++) {
501	if (likely(size < bvec->bv_len))
502	break;
503	size -= bvec->bv_len;
504	}
505	i->iov_offset = size;
506	i->nr_segs -= bvec - i->bvec;
507	i->bvec = bvec;
508	}
509
510	static void iov_iter_iovec_advance(struct iov_iter *i, size_t size)
511	{
512	const struct iovec iov, end;
513
514	if (!i->count)
515	return;
516	i->count -= size;
517
518	size += i->iov_offset; // from beginning of current segment
519	for (iov = iter_iov(iter: i), end = iov + i->nr_segs; iov < end; iov++) {
520	if (likely(size < iov->iov_len))
521	break;
522	size -= iov->iov_len;
523	}
524	i->iov_offset = size;
525	i->nr_segs -= iov - iter_iov(iter: i);
526	i->__iov = iov;
527	}
528
529	static void iov_iter_folioq_advance(struct iov_iter *i, size_t size)
530	{
531	const struct folio_queue *folioq = i->folioq;
532	unsigned int slot = i->folioq_slot;
533
534	if (!i->count)
535	return;
536	i->count -= size;
537
538	if (slot >= folioq_nr_slots(folioq)) {
539	folioq = folioq->next;
540	slot = `0`;
541	}
542
543	size += i->iov_offset; / From beginning of current segment. /
544	do {
545	size_t fsize = folioq_folio_size(folioq, slot);
546
547	if (likely(size < fsize))
548	break;
549	size -= fsize;
550	slot++;
551	if (slot >= folioq_nr_slots(folioq) && folioq->next) {
552	folioq = folioq->next;
553	slot = `0`;
554	}
555	} while (size);
556
557	i->iov_offset = size;
558	i->folioq_slot = slot;
559	i->folioq = folioq;
560	}
561
562	void iov_iter_advance(struct iov_iter *i, size_t size)
563	{
564	if (unlikely(i->count < size))
565	size = i->count;
566	if (likely(iter_is_ubuf(i)) \|\| unlikely(iov_iter_is_xarray(i))) {
567	i->iov_offset += size;
568	i->count -= size;
569	} else if (likely(iter_is_iovec(i) \|\| iov_iter_is_kvec(i))) {
570	/ iovec and kvec have identical layouts /
571	iov_iter_iovec_advance(i, size);
572	} else if (iov_iter_is_bvec(i)) {
573	iov_iter_bvec_advance(i, size);
574	} else if (iov_iter_is_folioq(i)) {
575	iov_iter_folioq_advance(i, size);
576	} else if (iov_iter_is_discard(i)) {
577	i->count -= size;
578	}
579	}
580	EXPORT_SYMBOL(iov_iter_advance);
581
582	static void iov_iter_folioq_revert(struct iov_iter *i, size_t unroll)
583	{
584	const struct folio_queue *folioq = i->folioq;
585	unsigned int slot = i->folioq_slot;
586
587	for (;;) {
588	size_t fsize;
589
590	if (slot == `0`) {
591	folioq = folioq->prev;
592	slot = folioq_nr_slots(folioq);
593	}
594	slot--;
595
596	fsize = folioq_folio_size(folioq, slot);
597	if (unroll <= fsize) {
598	i->iov_offset = fsize - unroll;
599	break;
600	}
601	unroll -= fsize;
602	}
603
604	i->folioq_slot = slot;
605	i->folioq = folioq;
606	}
607
608	void iov_iter_revert(struct iov_iter *i, size_t unroll)
609	{
610	if (!unroll)
611	return;
612	if (WARN_ON(unroll > MAX_RW_COUNT))
613	return;
614	i->count += unroll;
615	if (unlikely(iov_iter_is_discard(i)))
616	return;
617	if (unroll <= i->iov_offset) {
618	i->iov_offset -= unroll;
619	return;
620	}
621	unroll -= i->iov_offset;
622	if (iov_iter_is_xarray(i) \|\| iter_is_ubuf(i)) {
623	BUG(); / We should never go beyond the start of the specified*
624	* range since we might then be straying into pages that
625	* aren't pinned.
626	*/
627	} else if (iov_iter_is_bvec(i)) {
628	const struct bio_vec *bvec = i->bvec;
629	while (`1`) {
630	size_t n = (--bvec)->bv_len;
631	i->nr_segs++;
632	if (unroll <= n) {
633	i->bvec = bvec;
634	i->iov_offset = n - unroll;
635	return;
636	}
637	unroll -= n;
638	}
639	} else if (iov_iter_is_folioq(i)) {
640	i->iov_offset = `0`;
641	iov_iter_folioq_revert(i, unroll);
642	} else { / same logics for iovec and kvec /
643	const struct iovec *iov = iter_iov(iter: i);
644	while (`1`) {
645	size_t n = (--iov)->iov_len;
646	i->nr_segs++;
647	if (unroll <= n) {
648	i->__iov = iov;
649	i->iov_offset = n - unroll;
650	return;
651	}
652	unroll -= n;
653	}
654	}
655	}
656	EXPORT_SYMBOL(iov_iter_revert);
657
658	/*
659	* Return the count of just the current iov_iter segment.
660	*/
661	size_t iov_iter_single_seg_count(const struct iov_iter *i)
662	{
663	if (i->nr_segs > `1`) {
664	if (likely(iter_is_iovec(i) \|\| iov_iter_is_kvec(i)))
665	return min(i->count, iter_iov(i)->iov_len - i->iov_offset);
666	if (iov_iter_is_bvec(i))
667	return min(i->count, i->bvec->bv_len - i->iov_offset);
668	}
669	if (unlikely(iov_iter_is_folioq(i)))
670	return !i->count ? `0` :
671	umin(folioq_folio_size(i->folioq, i->folioq_slot), i->count);
672	return i->count;
673	}
674	EXPORT_SYMBOL(iov_iter_single_seg_count);
675
676	void iov_iter_kvec(struct iov_iter i, unsigned* int direction,
677	const struct kvec kvec, unsigned* long nr_segs,
678	size_t count)
679	{
680	WARN_ON(direction & ~(READ \| WRITE));
681	i = (struct* iov_iter){
682	.iter_type = ITER_KVEC,
683	.data_source = direction,
684	.kvec = kvec,
685	.nr_segs = nr_segs,
686	.iov_offset = `0`,
687	.count = count
688	};
689	}
690	EXPORT_SYMBOL(iov_iter_kvec);
691
692	void iov_iter_bvec(struct iov_iter i, unsigned* int direction,
693	const struct bio_vec bvec, unsigned* long nr_segs,
694	size_t count)
695	{
696	WARN_ON(direction & ~(READ \| WRITE));
697	i = (struct* iov_iter){
698	.iter_type = ITER_BVEC,
699	.data_source = direction,
700	.bvec = bvec,
701	.nr_segs = nr_segs,
702	.iov_offset = `0`,
703	.count = count
704	};
705	}
706	EXPORT_SYMBOL(iov_iter_bvec);
707
708	/**
709	* iov_iter_folio_queue - Initialise an I/O iterator to use the folios in a folio queue
710	* @i: The iterator to initialise.
711	* @direction: The direction of the transfer.
712	* @folioq: The starting point in the folio queue.
713	* @first_slot: The first slot in the folio queue to use
714	* @offset: The offset into the folio in the first slot to start at
715	* @count: The size of the I/O buffer in bytes.
716	*
717	* Set up an I/O iterator to either draw data out of the pages attached to an
718	* inode or to inject data into those pages. The pages must be prevented
719	* from evaporation, either by taking a ref on them or locking them by the
720	* caller.
721	*/
722	void iov_iter_folio_queue(struct iov_iter i, unsigned* int direction,
723	const struct folio_queue folioq, unsigned* int first_slot,
724	unsigned int offset, size_t count)
725	{
726	BUG_ON(direction & ~`1`);
727	i = (struct* iov_iter) {
728	.iter_type = ITER_FOLIOQ,
729	.data_source = direction,
730	.folioq = folioq,
731	.folioq_slot = first_slot,
732	.count = count,
733	.iov_offset = offset,
734	};
735	}
736	EXPORT_SYMBOL(iov_iter_folio_queue);
737
738	/**
739	* iov_iter_xarray - Initialise an I/O iterator to use the pages in an xarray
740	* @i: The iterator to initialise.
741	* @direction: The direction of the transfer.
742	* @xarray: The xarray to access.
743	* @start: The start file position.
744	* @count: The size of the I/O buffer in bytes.
745	*
746	* Set up an I/O iterator to either draw data out of the pages attached to an
747	* inode or to inject data into those pages. The pages must be prevented
748	* from evaporation, either by taking a ref on them or locking them by the
749	* caller.
750	*/
751	void iov_iter_xarray(struct iov_iter i, unsigned* int direction,
752	struct xarray *xarray, loff_t start, size_t count)
753	{
754	BUG_ON(direction & ~`1`);
755	i = (struct* iov_iter) {
756	.iter_type = ITER_XARRAY,
757	.data_source = direction,
758	.xarray = xarray,
759	.xarray_start = start,
760	.count = count,
761	.iov_offset = `0`
762	};
763	}
764	EXPORT_SYMBOL(iov_iter_xarray);
765
766	/**
767	* iov_iter_discard - Initialise an I/O iterator that discards data
768	* @i: The iterator to initialise.
769	* @direction: The direction of the transfer.
770	* @count: The size of the I/O buffer in bytes.
771	*
772	* Set up an I/O iterator that just discards everything that's written to it.
773	* It's only available as a READ iterator.
774	*/
775	void iov_iter_discard(struct iov_iter i, unsigned* int direction, size_t count)
776	{
777	BUG_ON(direction != READ);
778	i = (struct* iov_iter){
779	.iter_type = ITER_DISCARD,
780	.data_source = false,
781	.count = count,
782	.iov_offset = `0`
783	};
784	}
785	EXPORT_SYMBOL(iov_iter_discard);
786
787	static unsigned long iov_iter_alignment_iovec(const struct iov_iter *i)
788	{
789	const struct iovec *iov = iter_iov(iter: i);
790	unsigned long res = `0`;
791	size_t size = i->count;
792	size_t skip = i->iov_offset;
793
794	do {
795	size_t len = iov->iov_len - skip;
796	if (len) {
797	res \|= (unsigned long)iov->iov_base + skip;
798	if (len > size)
799	len = size;
800	res \|= len;
801	size -= len;
802	}
803	iov++;
804	skip = `0`;
805	} while (size);
806	return res;
807	}
808
809	static unsigned long iov_iter_alignment_bvec(const struct iov_iter *i)
810	{
811	const struct bio_vec *bvec = i->bvec;
812	unsigned res = `0`;
813	size_t size = i->count;
814	unsigned skip = i->iov_offset;
815
816	do {
817	size_t len = bvec->bv_len - skip;
818	res \|= (unsigned long)bvec->bv_offset + skip;
819	if (len > size)
820	len = size;
821	res \|= len;
822	bvec++;
823	size -= len;
824	skip = `0`;
825	} while (size);
826
827	return res;
828	}
829
830	unsigned long iov_iter_alignment(const struct iov_iter *i)
831	{
832	if (likely(iter_is_ubuf(i))) {
833	size_t size = i->count;
834	if (size)
835	return ((unsigned long)i->ubuf + i->iov_offset) \| size;
836	return `0`;
837	}
838
839	/ iovec and kvec have identical layouts /
840	if (likely(iter_is_iovec(i) \|\| iov_iter_is_kvec(i)))
841	return iov_iter_alignment_iovec(i);
842
843	if (iov_iter_is_bvec(i))
844	return iov_iter_alignment_bvec(i);
845
846	/ With both xarray and folioq types, we're dealing with whole folios. /
847	if (iov_iter_is_folioq(i))
848	return i->iov_offset \| i->count;
849	if (iov_iter_is_xarray(i))
850	return (i->xarray_start + i->iov_offset) \| i->count;
851
852	return `0`;
853	}
854	EXPORT_SYMBOL(iov_iter_alignment);
855
856	unsigned long iov_iter_gap_alignment(const struct iov_iter *i)
857	{
858	unsigned long res = `0`;
859	unsigned long v = `0`;
860	size_t size = i->count;
861	unsigned k;
862
863	if (iter_is_ubuf(i))
864	return `0`;
865
866	if (WARN_ON(!iter_is_iovec(i)))
867	return ~`0U`;
868
869	for (k = `0`; k < i->nr_segs; k++) {
870	const struct iovec *iov = iter_iov(iter: i) + k;
871	if (iov->iov_len) {
872	unsigned long base = (unsigned long)iov->iov_base;
873	if (v) // if not the first one
874	res \|= base \| v; // this start \| previous end
875	v = base + iov->iov_len;
876	if (size <= iov->iov_len)
877	break;
878	size -= iov->iov_len;
879	}
880	}
881	return res;
882	}
883	EXPORT_SYMBOL(iov_iter_gap_alignment);
884
885	static int want_pages_array(struct page ***res, size_t size,
886	size_t start, unsigned int maxpages)
887	{
888	unsigned int count = DIV_ROUND_UP(size + start, PAGE_SIZE);
889
890	if (count > maxpages)
891	count = maxpages;
892	WARN_ON(!count); // caller should've prevented that
893	if (!*res) {
894	res = kvmalloc_array(count, sizeof(struct* page *), GFP_KERNEL);
895	if (!*res)
896	return `0`;
897	}
898	return count;
899	}
900
901	static ssize_t iter_folioq_get_pages(struct iov_iter *iter,
902	struct page ***ppages, size_t maxsize,
903	unsigned maxpages, size_t *_start_offset)
904	{
905	const struct folio_queue *folioq = iter->folioq;
906	struct page **pages;
907	unsigned int slot = iter->folioq_slot;
908	size_t extracted = `0`, count = iter->count, iov_offset = iter->iov_offset;
909
910	if (slot >= folioq_nr_slots(folioq)) {
911	folioq = folioq->next;
912	slot = `0`;
913	if (WARN_ON(iov_offset != `0`))
914	return -EIO;
915	}
916
917	maxpages = want_pages_array(res: ppages, size: maxsize, start: iov_offset & ~PAGE_MASK, maxpages);
918	if (!maxpages)
919	return -ENOMEM;
920	*_start_offset = iov_offset & ~PAGE_MASK;
921	pages = *ppages;
922
923	for (;;) {
924	struct folio *folio = folioq_folio(folioq, slot);
925	size_t offset = iov_offset, fsize = folioq_folio_size(folioq, slot);
926	size_t part = PAGE_SIZE - offset % PAGE_SIZE;
927
928	if (offset < fsize) {
929	part = umin(part, umin(maxsize - extracted, fsize - offset));
930	count -= part;
931	iov_offset += part;
932	extracted += part;
933
934	*pages = folio_page(folio, offset / PAGE_SIZE);
935	get_page(page: *pages);
936	pages++;
937	maxpages--;
938	}
939
940	if (maxpages == `0` \|\| extracted >= maxsize)
941	break;
942
943	if (iov_offset >= fsize) {
944	iov_offset = `0`;
945	slot++;
946	if (slot == folioq_nr_slots(folioq) && folioq->next) {
947	folioq = folioq->next;
948	slot = `0`;
949	}
950	}
951	}
952
953	iter->count = count;
954	iter->iov_offset = iov_offset;
955	iter->folioq = folioq;
956	iter->folioq_slot = slot;
957	return extracted;
958	}
959
960	static ssize_t iter_xarray_populate_pages(struct page pages, struct** xarray *xa,
961	pgoff_t index, unsigned int nr_pages)
962	{
963	XA_STATE(xas, xa, index);
964	struct folio *folio;
965	unsigned int ret = `0`;
966
967	rcu_read_lock();
968	for (folio = xas_load(&xas); folio; folio = xas_next(xas: &xas)) {
969	if (xas_retry(xas: &xas, entry: folio))
970	continue;
971
972	/ Has the folio moved or been split? /
973	if (unlikely(folio != xas_reload(&xas))) {
974	xas_reset(xas: &xas);
975	continue;
976	}
977
978	pages[ret] = folio_file_page(folio, index: xas.xa_index);
979	folio_get(folio);
980	if (++ret == nr_pages)
981	break;
982	}
983	rcu_read_unlock();
984	return ret;
985	}
986
987	static ssize_t iter_xarray_get_pages(struct iov_iter *i,
988	struct page ***pages, size_t maxsize,
989	unsigned maxpages, size_t *_start_offset)
990	{
991	unsigned nr, offset, count;
992	pgoff_t index;
993	loff_t pos;
994
995	pos = i->xarray_start + i->iov_offset;
996	index = pos >> PAGE_SHIFT;
997	offset = pos & ~PAGE_MASK;
998	*_start_offset = offset;
999
1000	count = want_pages_array(res: pages, size: maxsize, start: offset, maxpages);
1001	if (!count)
1002	return -ENOMEM;
1003	nr = iter_xarray_populate_pages(pages: *pages, xa: i->xarray, index, nr_pages: count);
1004	if (nr == `0`)
1005	return `0`;
1006
1007	maxsize = min_t(size_t, nr * PAGE_SIZE - offset, maxsize);
1008	i->iov_offset += maxsize;
1009	i->count -= maxsize;
1010	return maxsize;
1011	}
1012
1013	/ must be done on non-empty ITER_UBUF or ITER_IOVEC one /
1014	static unsigned long first_iovec_segment(const struct iov_iter i, size_t size)
1015	{
1016	size_t skip;
1017	long k;
1018
1019	if (iter_is_ubuf(i))
1020	return (unsigned long)i->ubuf + i->iov_offset;
1021
1022	for (k = `0`, skip = i->iov_offset; k < i->nr_segs; k++, skip = `0`) {
1023	const struct iovec *iov = iter_iov(iter: i) + k;
1024	size_t len = iov->iov_len - skip;
1025
1026	if (unlikely(!len))
1027	continue;
1028	if (*size > len)
1029	*size = len;
1030	return (unsigned long)iov->iov_base + skip;
1031	}
1032	BUG(); // if it had been empty, we wouldn't get called
1033	}
1034
1035	/ must be done on non-empty ITER_BVEC one /
1036	static struct page first_bvec_segment(const* struct iov_iter *i,
1037	size_t size, size_t start)
1038	{
1039	struct page *page;
1040	size_t skip = i->iov_offset, len;
1041
1042	len = i->bvec->bv_len - skip;
1043	if (*size > len)
1044	*size = len;
1045	skip += i->bvec->bv_offset;
1046	page = i->bvec->bv_page + skip / PAGE_SIZE;
1047	*start = skip % PAGE_SIZE;
1048	return page;
1049	}
1050
1051	static ssize_t __iov_iter_get_pages_alloc(struct iov_iter *i,
1052	struct page ***pages, size_t maxsize,
1053	unsigned int maxpages, size_t *start)
1054	{
1055	unsigned int n, gup_flags = `0`;
1056
1057	if (maxsize > i->count)
1058	maxsize = i->count;
1059	if (!maxsize)
1060	return `0`;
1061	if (maxsize > MAX_RW_COUNT)
1062	maxsize = MAX_RW_COUNT;
1063
1064	if (likely(user_backed_iter(i))) {
1065	unsigned long addr;
1066	int res;
1067
1068	if (iov_iter_rw(i) != WRITE)
1069	gup_flags \|= FOLL_WRITE;
1070	if (i->nofault)
1071	gup_flags \|= FOLL_NOFAULT;
1072
1073	addr = first_iovec_segment(i, size: &maxsize);
1074	*start = addr % PAGE_SIZE;
1075	addr &= PAGE_MASK;
1076	n = want_pages_array(res: pages, size: maxsize, start: *start, maxpages);
1077	if (!n)
1078	return -ENOMEM;
1079	res = get_user_pages_fast(start: addr, nr_pages: n, gup_flags, pages: *pages);
1080	if (unlikely(res <= `0`))
1081	return res;
1082	maxsize = min_t(size_t, maxsize, res * PAGE_SIZE - *start);
1083	iov_iter_advance(i, maxsize);
1084	return maxsize;
1085	}
1086	if (iov_iter_is_bvec(i)) {
1087	struct page **p;
1088	struct page *page;
1089
1090	page = first_bvec_segment(i, size: &maxsize, start);
1091	n = want_pages_array(res: pages, size: maxsize, start: *start, maxpages);
1092	if (!n)
1093	return -ENOMEM;
1094	p = *pages;
1095	for (int k = `0`; k < n; k++) {
1096	struct folio *folio = page_folio(page + k);
1097	p[k] = page + k;
1098	if (!folio_test_slab(folio))
1099	folio_get(folio);
1100	}
1101	maxsize = min_t(size_t, maxsize, n * PAGE_SIZE - *start);
1102	i->count -= maxsize;
1103	i->iov_offset += maxsize;
1104	if (i->iov_offset == i->bvec->bv_len) {
1105	i->iov_offset = `0`;
1106	i->bvec++;
1107	i->nr_segs--;
1108	}
1109	return maxsize;
1110	}
1111	if (iov_iter_is_folioq(i))
1112	return iter_folioq_get_pages(iter: i, ppages: pages, maxsize, maxpages, start_offset: start);
1113	if (iov_iter_is_xarray(i))
1114	return iter_xarray_get_pages(i, pages, maxsize, maxpages, start_offset: start);
1115	return -EFAULT;
1116	}
1117
1118	ssize_t iov_iter_get_pages2(struct iov_iter i, struct* page **pages,
1119	size_t maxsize, unsigned maxpages, size_t *start)
1120	{
1121	if (!maxpages)
1122	return `0`;
1123	BUG_ON(!pages);
1124
1125	return __iov_iter_get_pages_alloc(i, pages: &pages, maxsize, maxpages, start);
1126	}
1127	EXPORT_SYMBOL(iov_iter_get_pages2);
1128
1129	ssize_t iov_iter_get_pages_alloc2(struct iov_iter *i,
1130	struct page **pages, size_t maxsize, size_t start)
1131	{
1132	ssize_t len;
1133
1134	*pages = NULL;
1135
1136	len = __iov_iter_get_pages_alloc(i, pages, maxsize, maxpages: ~`0U`, start);
1137	if (len <= `0`) {
1138	kvfree(addr: *pages);
1139	*pages = NULL;
1140	}
1141	return len;
1142	}
1143	EXPORT_SYMBOL(iov_iter_get_pages_alloc2);
1144
1145	static int iov_npages(const struct iov_iter i, int* maxpages)
1146	{
1147	size_t skip = i->iov_offset, size = i->count;
1148	const struct iovec *p;
1149	int npages = `0`;
1150
1151	for (p = iter_iov(iter: i); size; skip = `0`, p++) {
1152	unsigned offs = offset_in_page(p->iov_base + skip);
1153	size_t len = min(p->iov_len - skip, size);
1154
1155	if (len) {
1156	size -= len;
1157	npages += DIV_ROUND_UP(offs + len, PAGE_SIZE);
1158	if (unlikely(npages > maxpages))
1159	return maxpages;
1160	}
1161	}
1162	return npages;
1163	}
1164
1165	static int bvec_npages(const struct iov_iter i, int* maxpages)
1166	{
1167	size_t skip = i->iov_offset, size = i->count;
1168	const struct bio_vec *p;
1169	int npages = `0`;
1170
1171	for (p = i->bvec; size; skip = `0`, p++) {
1172	unsigned offs = (p->bv_offset + skip) % PAGE_SIZE;
1173	size_t len = min(p->bv_len - skip, size);
1174
1175	size -= len;
1176	npages += DIV_ROUND_UP(offs + len, PAGE_SIZE);
1177	if (unlikely(npages > maxpages))
1178	return maxpages;
1179	}
1180	return npages;
1181	}
1182
1183	int iov_iter_npages(const struct iov_iter i, int* maxpages)
1184	{
1185	if (unlikely(!i->count))
1186	return `0`;
1187	if (likely(iter_is_ubuf(i))) {
1188	unsigned offs = offset_in_page(i->ubuf + i->iov_offset);
1189	int npages = DIV_ROUND_UP(offs + i->count, PAGE_SIZE);
1190	return min(npages, maxpages);
1191	}
1192	/ iovec and kvec have identical layouts /
1193	if (likely(iter_is_iovec(i) \|\| iov_iter_is_kvec(i)))
1194	return iov_npages(i, maxpages);
1195	if (iov_iter_is_bvec(i))
1196	return bvec_npages(i, maxpages);
1197	if (iov_iter_is_folioq(i)) {
1198	unsigned offset = i->iov_offset % PAGE_SIZE;
1199	int npages = DIV_ROUND_UP(offset + i->count, PAGE_SIZE);
1200	return min(npages, maxpages);
1201	}
1202	if (iov_iter_is_xarray(i)) {
1203	unsigned offset = (i->xarray_start + i->iov_offset) % PAGE_SIZE;
1204	int npages = DIV_ROUND_UP(offset + i->count, PAGE_SIZE);
1205	return min(npages, maxpages);
1206	}
1207	return `0`;
1208	}
1209	EXPORT_SYMBOL(iov_iter_npages);
1210
1211	const void dup_iter(struct* iov_iter new, struct* iov_iter *old, gfp_t flags)
1212	{
1213	new = old;
1214	if (iov_iter_is_bvec(i: new))
1215	return new->bvec = kmemdup(new->bvec,
1216	new->nr_segs * sizeof(struct bio_vec),
1217	flags);
1218	else if (iov_iter_is_kvec(i: new) \|\| iter_is_iovec(i: new))
1219	/ iovec and kvec have identical layout /
1220	return new->__iov = kmemdup(new->__iov,
1221	new->nr_segs * sizeof(struct iovec),
1222	flags);
1223	return NULL;
1224	}
1225	EXPORT_SYMBOL(dup_iter);
1226
1227	static __noclone int copy_compat_iovec_from_user(struct iovec *iov,
1228	const struct iovec __user *uvec, u32 nr_segs)
1229	{
1230	const struct compat_iovec __user *uiov =
1231	(const struct compat_iovec __user *)uvec;
1232	int ret = -EFAULT;
1233	u32 i;
1234
1235	if (!user_access_begin(uiov, nr_segs * sizeof(*uiov)))
1236	return -EFAULT;
1237
1238	for (i = `0`; i < nr_segs; i++) {
1239	compat_uptr_t buf;
1240	compat_ssize_t len;
1241
1242	unsafe_get_user(len, &uiov[i].iov_len, uaccess_end);
1243	unsafe_get_user(buf, &uiov[i].iov_base, uaccess_end);
1244
1245	/ check for compat_size_t not fitting in compat_ssize_t .. /
1246	if (len < `0`) {
1247	ret = -EINVAL;
1248	goto uaccess_end;
1249	}
1250	iov[i].iov_base = compat_ptr(uptr: buf);
1251	iov[i].iov_len = len;
1252	}
1253
1254	ret = `0`;
1255	uaccess_end:
1256	user_access_end();
1257	return ret;
1258	}
1259
1260	static __noclone int copy_iovec_from_user(struct iovec *iov,
1261	const struct iovec __user uiov, unsigned* long nr_segs)
1262	{
1263	int ret = -EFAULT;
1264
1265	if (!user_access_begin(uiov, nr_segs * sizeof(*uiov)))
1266	return -EFAULT;
1267
1268	do {
1269	void __user *buf;
1270	ssize_t len;
1271
1272	unsafe_get_user(len, &uiov->iov_len, uaccess_end);
1273	unsafe_get_user(buf, &uiov->iov_base, uaccess_end);
1274
1275	/ check for size_t not fitting in ssize_t .. /
1276	if (unlikely(len < `0`)) {
1277	ret = -EINVAL;
1278	goto uaccess_end;
1279	}
1280	iov->iov_base = buf;
1281	iov->iov_len = len;
1282
1283	uiov++; iov++;
1284	} while (--nr_segs);
1285
1286	ret = `0`;
1287	uaccess_end:
1288	user_access_end();
1289	return ret;
1290	}
1291
1292	struct iovec iovec_from_user(const* struct iovec __user *uvec,
1293	unsigned long nr_segs, unsigned long fast_segs,
1294	struct iovec *fast_iov, bool compat)
1295	{
1296	struct iovec *iov = fast_iov;
1297	int ret;
1298
1299	/*
1300	* SuS says "The readv() function may fail if the iovcnt argument was
1301	* less than or equal to 0, or greater than {IOV_MAX}. Linux has
1302	* traditionally returned zero for zero segments, so...
1303	*/
1304	if (nr_segs == `0`)
1305	return iov;
1306	if (nr_segs > UIO_MAXIOV)
1307	return ERR_PTR(error: -EINVAL);
1308	if (nr_segs > fast_segs) {
1309	iov = kmalloc_array(nr_segs, sizeof(struct iovec), GFP_KERNEL);
1310	if (!iov)
1311	return ERR_PTR(error: -ENOMEM);
1312	}
1313
1314	if (unlikely(compat))
1315	ret = copy_compat_iovec_from_user(iov, uvec, nr_segs);
1316	else
1317	ret = copy_iovec_from_user(iov, uiov: uvec, nr_segs);
1318	if (ret) {
1319	if (iov != fast_iov)
1320	kfree(objp: iov);
1321	return ERR_PTR(error: ret);
1322	}
1323
1324	return iov;
1325	}
1326
1327	/*
1328	* Single segment iovec supplied by the user, import it as ITER_UBUF.
1329	*/
1330	static ssize_t __import_iovec_ubuf(int type, const struct iovec __user *uvec,
1331	struct iovec iovp, struct** iov_iter *i,
1332	bool compat)
1333	{
1334	struct iovec iov = iovp;
1335	ssize_t ret;
1336
1337	*iovp = NULL;
1338
1339	if (compat)
1340	ret = copy_compat_iovec_from_user(iov, uvec, nr_segs: `1`);
1341	else
1342	ret = copy_iovec_from_user(iov, uiov: uvec, nr_segs: `1`);
1343	if (unlikely(ret))
1344	return ret;
1345
1346	ret = import_ubuf(type, buf: iov->iov_base, len: iov->iov_len, i);
1347	if (unlikely(ret))
1348	return ret;
1349	return i->count;
1350	}
1351
1352	ssize_t __import_iovec(int type, const struct iovec __user *uvec,
1353	unsigned nr_segs, unsigned fast_segs, struct iovec **iovp,
1354	struct iov_iter *i, bool compat)
1355	{
1356	ssize_t total_len = `0`;
1357	unsigned long seg;
1358	struct iovec *iov;
1359
1360	if (nr_segs == `1`)
1361	return __import_iovec_ubuf(type, uvec, iovp, i, compat);
1362
1363	iov = iovec_from_user(uvec, nr_segs, fast_segs, fast_iov: *iovp, compat);
1364	if (IS_ERR(ptr: iov)) {
1365	*iovp = NULL;
1366	return PTR_ERR(ptr: iov);
1367	}
1368
1369	/*
1370	* According to the Single Unix Specification we should return EINVAL if
1371	* an element length is < 0 when cast to ssize_t or if the total length
1372	* would overflow the ssize_t return value of the system call.
1373	*
1374	* Linux caps all read/write calls to MAX_RW_COUNT, and avoids the
1375	* overflow case.
1376	*/
1377	for (seg = `0`; seg < nr_segs; seg++) {
1378	ssize_t len = (ssize_t)iov[seg].iov_len;
1379
1380	if (!access_ok(iov[seg].iov_base, len)) {
1381	if (iov != *iovp)
1382	kfree(objp: iov);
1383	*iovp = NULL;
1384	return -EFAULT;
1385	}
1386
1387	if (len > MAX_RW_COUNT - total_len) {
1388	len = MAX_RW_COUNT - total_len;
1389	iov[seg].iov_len = len;
1390	}
1391	total_len += len;
1392	}
1393
1394	iov_iter_init(i, type, iov, nr_segs, total_len);
1395	if (iov == *iovp)
1396	*iovp = NULL;
1397	else
1398	*iovp = iov;
1399	return total_len;
1400	}
1401
1402	/**
1403	* import_iovec() - Copy an array of &struct iovec from userspace
1404	* into the kernel, check that it is valid, and initialize a new
1405	* &struct iov_iter iterator to access it.
1406	*
1407	* @type: One of %READ or %WRITE.
1408	* @uvec: Pointer to the userspace array.
1409	* @nr_segs: Number of elements in userspace array.
1410	* @fast_segs: Number of elements in @iov.
1411	* @iovp: (input and output parameter) Pointer to pointer to (usually small
1412	* on-stack) kernel array.
1413	* @i: Pointer to iterator that will be initialized on success.
1414	*
1415	* If the array pointed to by *@iov is large enough to hold all @nr_segs,
1416	* then this function places %NULL in *@iov on return. Otherwise, a new
1417	* array will be allocated and the result placed in *@iov. This means that
1418	* the caller may call kfree() on *@iov regardless of whether the small
1419	* on-stack array was used or not (and regardless of whether this function
1420	* returns an error or not).
1421	*
1422	* Return: Negative error code on error, bytes imported on success
1423	*/
1424	ssize_t import_iovec(int type, const struct iovec __user *uvec,
1425	unsigned nr_segs, unsigned fast_segs,
1426	struct iovec iovp, struct** iov_iter *i)
1427	{
1428	return __import_iovec(type, uvec, nr_segs, fast_segs, iovp, i,
1429	in_compat_syscall());
1430	}
1431	EXPORT_SYMBOL(import_iovec);
1432
1433	int import_ubuf(int rw, void __user buf, size_t len, struct* iov_iter *i)
1434	{
1435	if (len > MAX_RW_COUNT)
1436	len = MAX_RW_COUNT;
1437	if (unlikely(!access_ok(buf, len)))
1438	return -EFAULT;
1439
1440	iov_iter_ubuf(i, direction: rw, buf, count: len);
1441	return `0`;
1442	}
1443	EXPORT_SYMBOL_GPL(import_ubuf);
1444
1445	/**
1446	* iov_iter_restore() - Restore a &struct iov_iter to the same state as when
1447	* iov_iter_save_state() was called.
1448	*
1449	* @i: &struct iov_iter to restore
1450	* @state: state to restore from
1451	*
1452	* Used after iov_iter_save_state() to bring restore @i, if operations may
1453	* have advanced it.
1454	*
1455	* Note: only works on ITER_IOVEC, ITER_BVEC, and ITER_KVEC
1456	*/
1457	void iov_iter_restore(struct iov_iter i, struct* iov_iter_state *state)
1458	{
1459	if (WARN_ON_ONCE(!iov_iter_is_bvec(i) && !iter_is_iovec(i) &&
1460	!iter_is_ubuf(i)) && !iov_iter_is_kvec(i))
1461	return;
1462	i->iov_offset = state->iov_offset;
1463	i->count = state->count;
1464	if (iter_is_ubuf(i))
1465	return;
1466	/*
1467	* For the *vec iters, nr_segs + iov is constant - if we increment
1468	* the vec, then we also decrement the nr_segs count. Hence we don't
1469	* need to track both of these, just one is enough and we can deduct
1470	* the other from that. ITER_KVEC and ITER_IOVEC are the same struct
1471	* size, so we can just increment the iov pointer as they are unionzed.
1472	* ITER_BVEC _may_ be the same size on some archs, but on others it is
1473	* not. Be safe and handle it separately.
1474	*/
1475	BUILD_BUG_ON(sizeof(struct iovec) != sizeof(struct kvec));
1476	if (iov_iter_is_bvec(i))
1477	i->bvec -= state->nr_segs - i->nr_segs;
1478	else
1479	i->__iov -= state->nr_segs - i->nr_segs;
1480	i->nr_segs = state->nr_segs;
1481	}
1482
1483	/*
1484	* Extract a list of contiguous pages from an ITER_FOLIOQ iterator. This does
1485	* not get references on the pages, nor does it get a pin on them.
1486	*/
1487	static ssize_t iov_iter_extract_folioq_pages(struct iov_iter *i,
1488	struct page ***pages, size_t maxsize,
1489	unsigned int maxpages,
1490	iov_iter_extraction_t extraction_flags,
1491	size_t *offset0)
1492	{
1493	const struct folio_queue *folioq = i->folioq;
1494	struct page **p;
1495	unsigned int nr = `0`;
1496	size_t extracted = `0`, offset, slot = i->folioq_slot;
1497
1498	if (slot >= folioq_nr_slots(folioq)) {
1499	folioq = folioq->next;
1500	slot = `0`;
1501	if (WARN_ON(i->iov_offset != `0`))
1502	return -EIO;
1503	}
1504
1505	offset = i->iov_offset & ~PAGE_MASK;
1506	*offset0 = offset;
1507
1508	maxpages = want_pages_array(res: pages, size: maxsize, start: offset, maxpages);
1509	if (!maxpages)
1510	return -ENOMEM;
1511	p = *pages;
1512
1513	for (;;) {
1514	struct folio *folio = folioq_folio(folioq, slot);
1515	size_t offset = i->iov_offset, fsize = folioq_folio_size(folioq, slot);
1516	size_t part = PAGE_SIZE - offset % PAGE_SIZE;
1517
1518	if (offset < fsize) {
1519	part = umin(part, umin(maxsize - extracted, fsize - offset));
1520	i->count -= part;
1521	i->iov_offset += part;
1522	extracted += part;
1523
1524	p[nr++] = folio_page(folio, offset / PAGE_SIZE);
1525	}
1526
1527	if (nr >= maxpages \|\| extracted >= maxsize)
1528	break;
1529
1530	if (i->iov_offset >= fsize) {
1531	i->iov_offset = `0`;
1532	slot++;
1533	if (slot == folioq_nr_slots(folioq) && folioq->next) {
1534	folioq = folioq->next;
1535	slot = `0`;
1536	}
1537	}
1538	}
1539
1540	i->folioq = folioq;
1541	i->folioq_slot = slot;
1542	return extracted;
1543	}
1544
1545	/*
1546	* Extract a list of contiguous pages from an ITER_XARRAY iterator. This does not
1547	* get references on the pages, nor does it get a pin on them.
1548	*/
1549	static ssize_t iov_iter_extract_xarray_pages(struct iov_iter *i,
1550	struct page ***pages, size_t maxsize,
1551	unsigned int maxpages,
1552	iov_iter_extraction_t extraction_flags,
1553	size_t *offset0)
1554	{
1555	struct page **p;
1556	struct folio *folio;
1557	unsigned int nr = `0`, offset;
1558	loff_t pos = i->xarray_start + i->iov_offset;
1559	XA_STATE(xas, i->xarray, pos >> PAGE_SHIFT);
1560
1561	offset = pos & ~PAGE_MASK;
1562	*offset0 = offset;
1563
1564	maxpages = want_pages_array(res: pages, size: maxsize, start: offset, maxpages);
1565	if (!maxpages)
1566	return -ENOMEM;
1567	p = *pages;
1568
1569	rcu_read_lock();
1570	for (folio = xas_load(&xas); folio; folio = xas_next(xas: &xas)) {
1571	if (xas_retry(xas: &xas, entry: folio))
1572	continue;
1573
1574	/ Has the folio moved or been split? /
1575	if (unlikely(folio != xas_reload(&xas))) {
1576	xas_reset(xas: &xas);
1577	continue;
1578	}
1579
1580	p[nr++] = folio_file_page(folio, index: xas.xa_index);
1581	if (nr == maxpages)
1582	break;
1583	}
1584	rcu_read_unlock();
1585
1586	maxsize = min_t(size_t, nr * PAGE_SIZE - offset, maxsize);
1587	iov_iter_advance(i, maxsize);
1588	return maxsize;
1589	}
1590
1591	/*
1592	* Extract a list of virtually contiguous pages from an ITER_BVEC iterator.
1593	* This does not get references on the pages, nor does it get a pin on them.
1594	*/
1595	static ssize_t iov_iter_extract_bvec_pages(struct iov_iter *i,
1596	struct page ***pages, size_t maxsize,
1597	unsigned int maxpages,
1598	iov_iter_extraction_t extraction_flags,
1599	size_t *offset0)
1600	{
1601	size_t skip = i->iov_offset, size = `0`;
1602	struct bvec_iter bi;
1603	int k = `0`;
1604
1605	if (i->nr_segs == `0`)
1606	return `0`;
1607
1608	if (i->iov_offset == i->bvec->bv_len) {
1609	i->iov_offset = `0`;
1610	i->nr_segs--;
1611	i->bvec++;
1612	skip = `0`;
1613	}
1614	bi.bi_idx = `0`;
1615	bi.bi_size = maxsize;
1616	bi.bi_bvec_done = skip;
1617
1618	maxpages = want_pages_array(res: pages, size: maxsize, start: skip, maxpages);
1619
1620	while (bi.bi_size && bi.bi_idx < i->nr_segs) {
1621	struct bio_vec bv = bvec_iter_bvec(i->bvec, bi);
1622
1623	/*
1624	* The iov_iter_extract_pages interface only allows an offset
1625	* into the first page. Break out of the loop if we see an
1626	* offset into subsequent pages, the caller will have to call
1627	* iov_iter_extract_pages again for the reminder.
1628	*/
1629	if (k) {
1630	if (bv.bv_offset)
1631	break;
1632	} else {
1633	*offset0 = bv.bv_offset;
1634	}
1635
1636	(*pages)[k++] = bv.bv_page;
1637	size += bv.bv_len;
1638
1639	if (k >= maxpages)
1640	break;
1641
1642	/*
1643	* We are done when the end of the bvec doesn't align to a page
1644	* boundary as that would create a hole in the returned space.
1645	* The caller will handle this with another call to
1646	* iov_iter_extract_pages.
1647	*/
1648	if (bv.bv_offset + bv.bv_len != PAGE_SIZE)
1649	break;
1650
1651	bvec_iter_advance_single(bv: i->bvec, iter: &bi, bytes: bv.bv_len);
1652	}
1653
1654	iov_iter_advance(i, size);
1655	return size;
1656	}
1657
1658	/*
1659	* Extract a list of virtually contiguous pages from an ITER_KVEC iterator.
1660	* This does not get references on the pages, nor does it get a pin on them.
1661	*/
1662	static ssize_t iov_iter_extract_kvec_pages(struct iov_iter *i,
1663	struct page ***pages, size_t maxsize,
1664	unsigned int maxpages,
1665	iov_iter_extraction_t extraction_flags,
1666	size_t *offset0)
1667	{
1668	struct page *p, page;
1669	const void *kaddr;
1670	size_t skip = i->iov_offset, offset, len, size;
1671	int k;
1672
1673	for (;;) {
1674	if (i->nr_segs == `0`)
1675	return `0`;
1676	size = min(maxsize, i->kvec->iov_len - skip);
1677	if (size)
1678	break;
1679	i->iov_offset = `0`;
1680	i->nr_segs--;
1681	i->kvec++;
1682	skip = `0`;
1683	}
1684
1685	kaddr = i->kvec->iov_base + skip;
1686	offset = (unsigned long)kaddr & ~PAGE_MASK;
1687	*offset0 = offset;
1688
1689	maxpages = want_pages_array(res: pages, size, start: offset, maxpages);
1690	if (!maxpages)
1691	return -ENOMEM;
1692	p = *pages;
1693
1694	kaddr -= offset;
1695	len = offset + size;
1696	for (k = `0`; k < maxpages; k++) {
1697	size_t seg = min_t(size_t, len, PAGE_SIZE);
1698
1699	if (is_vmalloc_or_module_addr(x: kaddr))
1700	page = vmalloc_to_page(addr: kaddr);
1701	else
1702	page = virt_to_page(kaddr);
1703
1704	p[k] = page;
1705	len -= seg;
1706	kaddr += PAGE_SIZE;
1707	}
1708
1709	size = min_t(size_t, size, maxpages * PAGE_SIZE - offset);
1710	iov_iter_advance(i, size);
1711	return size;
1712	}
1713
1714	/*
1715	* Extract a list of contiguous pages from a user iterator and get a pin on
1716	* each of them. This should only be used if the iterator is user-backed
1717	* (IOBUF/UBUF).
1718	*
1719	* It does not get refs on the pages, but the pages must be unpinned by the
1720	* caller once the transfer is complete.
1721	*
1722	* This is safe to be used where background IO/DMA is going to be modifying
1723	* the buffer; using a pin rather than a ref makes forces fork() to give the
1724	* child a copy of the page.
1725	*/
1726	static ssize_t iov_iter_extract_user_pages(struct iov_iter *i,
1727	struct page ***pages,
1728	size_t maxsize,
1729	unsigned int maxpages,
1730	iov_iter_extraction_t extraction_flags,
1731	size_t *offset0)
1732	{
1733	unsigned long addr;
1734	unsigned int gup_flags = `0`;
1735	size_t offset;
1736	int res;
1737
1738	if (i->data_source == ITER_DEST)
1739	gup_flags \|= FOLL_WRITE;
1740	if (extraction_flags & ITER_ALLOW_P2PDMA)
1741	gup_flags \|= FOLL_PCI_P2PDMA;
1742	if (i->nofault)
1743	gup_flags \|= FOLL_NOFAULT;
1744
1745	addr = first_iovec_segment(i, size: &maxsize);
1746	*offset0 = offset = addr % PAGE_SIZE;
1747	addr &= PAGE_MASK;
1748	maxpages = want_pages_array(res: pages, size: maxsize, start: offset, maxpages);
1749	if (!maxpages)
1750	return -ENOMEM;
1751	res = pin_user_pages_fast(start: addr, nr_pages: maxpages, gup_flags, pages: *pages);
1752	if (unlikely(res <= `0`))
1753	return res;
1754	maxsize = min_t(size_t, maxsize, res * PAGE_SIZE - offset);
1755	iov_iter_advance(i, maxsize);
1756	return maxsize;
1757	}
1758
1759	/**
1760	* iov_iter_extract_pages - Extract a list of contiguous pages from an iterator
1761	* @i: The iterator to extract from
1762	* @pages: Where to return the list of pages
1763	* @maxsize: The maximum amount of iterator to extract
1764	* @maxpages: The maximum size of the list of pages
1765	* @extraction_flags: Flags to qualify request
1766	* @offset0: Where to return the starting offset into (*@pages)[0]
1767	*
1768	* Extract a list of contiguous pages from the current point of the iterator,
1769	* advancing the iterator. The maximum number of pages and the maximum amount
1770	* of page contents can be set.
1771	*
1772	* If *@pages is NULL, a page list will be allocated to the required size and
1773	* @pages will be set to its base. If @pages is not NULL, it will be assumed
1774	* that the caller allocated a page list at least @maxpages in size and this
1775	* will be filled in.
1776	*
1777	* @extraction_flags can have ITER_ALLOW_P2PDMA set to request peer-to-peer DMA
1778	* be allowed on the pages extracted.
1779	*
1780	* The iov_iter_extract_will_pin() function can be used to query how cleanup
1781	* should be performed.
1782	*
1783	* Extra refs or pins on the pages may be obtained as follows:
1784	*
1785	* (*) If the iterator is user-backed (ITER_IOVEC/ITER_UBUF), pins will be
1786	* added to the pages, but refs will not be taken.
1787	* iov_iter_extract_will_pin() will return true.
1788	*
1789	* (*) If the iterator is ITER_KVEC, ITER_BVEC, ITER_FOLIOQ or ITER_XARRAY, the
1790	* pages are merely listed; no extra refs or pins are obtained.
1791	* iov_iter_extract_will_pin() will return 0.
1792	*
1793	* Note also:
1794	*
1795	* (*) Use with ITER_DISCARD is not supported as that has no content.
1796	*
1797	* On success, the function sets *@pages to the new pagelist, if allocated, and
1798	* sets *offset0 to the offset into the first page.
1799	*
1800	* It may also return -ENOMEM and -EFAULT.
1801	*/
1802	ssize_t iov_iter_extract_pages(struct iov_iter *i,
1803	struct page ***pages,
1804	size_t maxsize,
1805	unsigned int maxpages,
1806	iov_iter_extraction_t extraction_flags,
1807	size_t *offset0)
1808	{
1809	maxsize = min_t(size_t, min_t(size_t, maxsize, i->count), MAX_RW_COUNT);
1810	if (!maxsize)
1811	return `0`;
1812
1813	if (likely(user_backed_iter(i)))
1814	return iov_iter_extract_user_pages(i, pages, maxsize,
1815	maxpages, extraction_flags,
1816	offset0);
1817	if (iov_iter_is_kvec(i))
1818	return iov_iter_extract_kvec_pages(i, pages, maxsize,
1819	maxpages, extraction_flags,
1820	offset0);
1821	if (iov_iter_is_bvec(i))
1822	return iov_iter_extract_bvec_pages(i, pages, maxsize,
1823	maxpages, extraction_flags,
1824	offset0);
1825	if (iov_iter_is_folioq(i))
1826	return iov_iter_extract_folioq_pages(i, pages, maxsize,
1827	maxpages, extraction_flags,
1828	offset0);
1829	if (iov_iter_is_xarray(i))
1830	return iov_iter_extract_xarray_pages(i, pages, maxsize,
1831	maxpages, extraction_flags,
1832	offset0);
1833	return -EFAULT;
1834	}
1835	EXPORT_SYMBOL_GPL(iov_iter_extract_pages);
1836

Browse the source code of Linux/lib/iov_iter.c